Attention is All You need

Transformerを提案し機械翻訳のSOTAを達成

RNN/CNNを使わず翻訳のSOTAを達成した話。Attentionを基礎とした伝搬が肝となっている。単語/位置のlookupから入力を作成、Encoderは入力＋前回出力からAを作成しその後位置ごとに伝搬、DecoderはEncoder出力＋前回出力から同様に処理し出力している

タイトルはAttention推しだが、個人的には位置をベクトル化するPositional Encodingと位置ごとの伝搬をするPosition-wise Feed-Forward Networksのほうがインパクトが大きいと思った。